阿里妈妈技术团队5篇论文入选 SIGIR 2022!
近日,第 45 届国际信息检索大会(The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval,SIGIR 2022)论文接收结果公布,阿里妈妈技术团队有 5 篇论文被录用。
SIGIR 2022 是中国计算机学会(CCF)推荐的A类国际学术会议,将于 2022年7月11日-7月15日在西班牙马德里召开,同时支持线上参会。本次会议共收到 794 篇长文投稿,其中 161 篇长文被录用,录用率约 20%;共收到 667 篇短文投稿,其中 165 篇短文被录用,录用率约 24.7%。
阿里妈妈论文概述
▐ Joint Optimization of Ad Ranking and Creative Selection
广告间排序和广告内创意优选联合优化
摘要: 广告创意是展示商品内容、传达商家营销信息的直接载体。商家通常会为一个商品创作多种不同的创意,由于不同的用户有不同的关注点,这些候选创意所对应的投放效果(点击率)则相差甚远。创意优选的目的是学习用户对于广告创意的偏好,为用户挖掘及展现最具吸引力的广告创意内容以最大化点击率。然而,目前业内普遍的做法是将创意优选放在排序阶段之后,这将导致广告内的创意选择无法影响广告间的排序,即排序阶段(CTR预估)没有体现创意带来的加成,一个好的创意排在前面,会影响后面广告间的排序。针对这些问题,本文提出了一种新颖的创意优选级联结构(Cascade Architecture of Creative Selection, CACS),在广告排序阶段之前构建创意优选模型,以实现广告内创意优选和广告间排序的联合优化。考虑创意优选前置所带来的效率和效果问题,本文做了以下工作: 1)设计一个经典的双塔结构来降低计算成本,并允许创意优选模型生成的创意特征与下游排序模型共享,避免重复计算; 2)提出一种基于软标签序学习蒸馏方法(soft label list-wise ranking distillation),从强大的排序模型中提取知识来指导创意优选模型中广告内创意序的学习。除此之外,设计一种自适应dropout网络,鼓励模型以一定概率忽略ID特征,而偏向于内容特征,来平衡ID特征的记忆性和内容特征的泛化性,以学习创意的多模态表示。最重要的是,排序模型从CACS中获取到了每个广告的最优创意信息,并最终提升排序模型的效果。大量的实验结果证明了该方法在离线和在线评估中的有效性和优越性。
▐ Towards Personalized Bundle Creative Generation with Contrastive Non-Autoregressive Decoding
基于对比式非自回归解码的捆绑创意生成
摘要: 捆绑生成 (bundle generation) 旨在生成一组商品并打包推荐给用户,这种形式对商家而言可以提升商品曝光度、对消费者而言其兴趣可被更好地满足。在营销投放活动中,呈现给用户的往往是由一组商品、一组slogan和一个创意模板等异质元素所形成的完整创意。本文研究捆绑创意生成 (bundle creative generation) 问题,旨在基于用户历史交互行为和元素候选来生成上述完整创意。为了同时考虑生成创意的质量和生成过程的速度,我们提出一个对比式非自回归解码模型,通过对创意中的全部元素并行解码来提高生成速度,并基于用户在线反馈数据进行对比学习来提升创意质量。离在线实验均表明本文所提方法在创意质量和生成速度上的明显优势。
▐ Posterior Probability Matters: Doubly-Adaptive Calibration for Neural Predictions in Online Advertising
AdaCalib: 后验引导的特征自适应预估校准
摘要: 在 OCPX 广告系统中,CTR/CVR 预估模型的准度对于广告生态至关重要,我们希望预估模型的输出概率值能够反映真实似然;然而由于样本粒度的似然不可知,模型的输出概率往往存在一定偏差。本文提出后验引导的特征自适应校准模型 AdaCalib,在预估模型中引入后验统计量来学习校准函数簇,每个特征值对应特定的校准函数。同时,针对不同特征值的频数信息存在差异的现象,通过自适应分桶机制来保证每个特征值的校准函数所依赖的后验信息的可靠性。在线 serving 时,AdaCalib 可合入预估模型的 ckpt 中而不再维护单独的校准模块。离在线实验均表明 AdaCalib 相比过往方法在校准能力上的有效性。
▐ Learning Disentangled Representations for Counterfactual Regression via Mutual Information Minimization
通过互信息最小化学习反事实推断中的解耦表征
摘要: 学习个体性的处理效应是因果推断的一个根本性问题,在很多领域特别是在互联网公司看重的用户增长领域上吸引了越多越多的关注。最近,把输入的协变量分解成三个潜在因子包括工具、混淆和调整因子的解耦表征学习方法在处理效应预估上取得了很多成功。然而如何准确学习到根本的解耦因子仍然是一个开放性的问题。特别地,以往的方法未能获取独立的解耦因子,这个是正确识别处理效应的必要条件。在这篇文章中,我们提出了通过互信息最小化来学习反事实推断中的解耦表征,学习潜在因子时利用多任务框架来共享信息,并且用互信息最小化的学习准则来保证这些因子之间的独立性。通过公开数据集和用户增长方面的工业数据集的实验,证明了该方法效果超过目前SOTA的方法。
▐ Transform Cold-Start Users into Warm via Fused Behaviors in Large-Scale Recommendation
通过对融合序列建模预热大规模推荐系统中的冷启动客户
摘要: 为少行为的冷启动用户进行内容推荐对推荐系统是一个非常巨大的挑战。目前深度推荐系统大多进行个性化的推荐建模,而推荐系统对冷启动客户集的推荐效果会有所下降,导致效果下降原因主要是模型遇到的挑战:(1) 冷启动客户集与模型见过的用户集之间在一些特征分布上存在一定偏差;(2) 模型对于对于行为少的冷启动客户比较难于刻画。在本文中,我们提出了一种能够减轻上述问题的推荐模型(Cold-Transformer)。首先,我们设计了一个Embedding Adaption(EA)层用来消除这种特征分布偏差问题,EA层能够把冷启动客户的嵌入式向量转换为更加靠近那些已经见过的用户,以此来更好的表达用户的兴趣。其次,为了能够更好刻画少行为的冷启动用户兴趣,我们提出了通过Label Encoding(LE)同时建模正负反馈混合序列,这样模型能够利用更多行为信息。最后,为了能够使模型应用在工业的大规模的推荐系统中,我们保持了双塔模型结构。本文在公开和工业数据集上都做了实验,Cold-Transformer能够取得显著的好于目前的SOTA方法的效果,对比方法也包括深度耦合模型。